ChatGPT看图写话-妈妈再也不用担心小孩的学习

Original 田可可云上奇谭 2024-01-18

欢迎点击上方蓝字关注

我是田可可，云上奇谭主理人，目前可可致力于成为1万名行业人士和AI技术的连接器，帮助大家找到AI，认知AI，用好AI，做AI时代的先进生产者！

引言

最近，ChatGPT在移动端和网页端都完成了重大更新，Plus用户可以直接将图片扔给ChatGPT进行问答和分析。

也就是说，ChatGPT不再只有文本理解能力，还拥有视觉理解能力！可以预见，在不久的将来，ChatGPT会演化成一个活生生的人，听说读写，每一项能力都超过普通人！

我猜测这应该是Andrej Karpathy重返OpenAI的一个大项目。

那么ChatGPT分析和理解图像的能力到底有多强呢？我进行了下面的测试。

其实Midjourney也可以根据图片给出文本描述，但是Midjourney主要局限在绘画领域，生成的文本描述也主要是为了绘图使用的。ChatGPT其实是一种通用视觉能力，目标其实就是让ChatGPT模仿人类一样，可以看，可以听，可以说，这样就可以对图像进行上下文相关的连贯性对话分析。

测试

有人说，能识别图片有什么用？

为有视觉障碍的人装上眼睛，OpenAI和Be My Eyes联合开发了Be My AI，就是通过计算机视觉理解，让盲人可以看到眼前的世界。
识别生物物种，当遇到也不认识图片中的物体，可以让ChatGPT识别，并且进一步通过ChatGPT的对话和上下文理解能力，学习物种的相关知识。
看图写话，小学生作文，妈妈再也不担心了，可以用ChatGPT帮忙看看图，看看有啥想法。

例子很多，这里就不一一列举，下面我们来用真实的例子测试，看看ChatGPT的视觉处理能力。

图片描述

图片描述能力基本都已经非常完善，这个能力类似Midjourney的Describe描述图片的能力，但是有些隐含信息它还是很难挖掘到。

这里的图片其实隐含了一个二维码，但是ChatGPT并不能识别。

物体识别

下面是识别昆虫，我测试了几个都准确。可以非常准确识别图片中是什么物种，并给出相关信息介绍。

下面这个超级复杂的图片，ChatGPT也没有拒绝，完全可以OCR（一种图像文本提取识别技术）识别里面的文字，并完成翻译。

这个图像OCR其实之前就比较成熟了，但是ChatGPT也可以直接做，而且还能给出提取后的文本坐标。

物体识别，文本OCR，ChatGPT基本问题不大，识别的很精准了。基本你再任何地方，可以通过拍照，识别你不认识的文字，让ChatGPT帮你分析。

看图找片

是不是刷短视频的时候，不知道视频来自哪一个电影和电视剧，可以截图，找ChatGPT去搜索。下面我用了电影《阿凡达》的海报询问是哪一步电影，ChatGPT给出了正确的回答。

目前我测试了下，相对来说只有旧电影，国外的电影电视剧识别率较高，但是国内的识别率较低，这个应该是训练数据集的原因。

专业图像分析

我给了一张显微镜下的切片图像，这是比较专业的图像了，普通人基本不太清楚这是什么图片，但是AI知道，它清晰的描述了这幅图片可能是怎么制作的，经过相关专业同学确认，它说的都是正确的。当然，它并没有办法判断这个细胞组织是否有病变异常，但是直接让我去咨询病理医生，方向也是正确的！

在这方面，ChatGPT的能力是超过普通人的，除非是专业的医生或者对切片图像比较熟悉的人，否则很难给出这个答案。

可以看出，对于医疗建议，ChatGPT非常小心谨慎，这是OpenAI有意控制的，毕竟，像百度一样出现医疗事故那就不好解释了

小学生看图写话

现在小学生都有看图写话的考试和作文，这个可以直接丢给ChatGPT识别和写作。

直接让它从多个角度展开分析和写作。

我觉得这个可能会成为一种教育应用，为父母指导小孩写作有一定帮助。

八卦分析

下面这个分析了宝强和马蓉的照片，ChatGPT确实准确判断出谁和谁是情侣关系，但是还是需要人为提示，主要是引导他，因为它给出的第一个回答确实是正常的回答。

风险识别控制

类似于GPT-4，GPT-4V的训练于2022年完成，并在2023年3月开始提供早期访问。由于GPT-4是GPT-4V的视觉能力背后的技术支撑，因此其训练过程是相同的。首先，预训练模型经过大量的文本和图像数据(来自互联网和有许可的数据源)进行下一个单词的预测训练。然后，利用一种名为强化学习从人类反馈中进行加强学习的算法(RLHF)对模型进行进一步微调，以产生更受人类训练者偏好的输出。

由于风险合规问题，在OpenAI 发布的GPT-4V(视觉)系统卡报告中，指明了如下几个风险：

科学知识
医疗建议
刻板印象和毫无根据的推论
虚假信息的风险
会引起仇恨和厌恶的内容
视觉漏洞

比如，所有解析图片中的人物、地点等敏感信息的要求，ChatGPT都直接拒绝回答了，因为涉及到隐私，但是它可以给出通用性的描述。

所以OpenAI对这一部分内容会有比较严格的风险控制，如果你触碰了风险，比如直接让ChatGPT开出药方，ChatGPT会直接拒绝回答。

总结

现代教育体系基本都是从普鲁士教育演化而来，大部分普通人就是学习某个领域的专业知识，培训后上岗就业。

我认为现在的ChatGPT就是一个有高潜力的尖子生，能够考上哈佛大学（国外专家团队已经测试过其考试能力）。这就像一个还没有进入专业领域的高中生，考上大学以后，将会接受专业训练，甚至博士阶段的更细分领域的训练，然后成为领域专家。

而ChatGPT背后的通用大模型，也是这样一个尖子生，让这个尖子生复制N份，每一份都去专攻不同行业领域的细分问题（微调），它可能很快就可以上岗，完成之前需要很多人力和培训成本才能完成的工作。

基于大模型的通用人工智能技术，未来将会渗透到各行各业，对各行各业产生影响。如何应对未来AI技术在各个行业的影响，值得每个行业人士思考。

往期精彩内容

揭秘ChatGPT-4充值方法，科学冲浪获取一手资料和插件模式

几招教你绕过风控开通OpenAI的API

为何OpenAI能领先大厂开发出ChatGPT的大模型？

欢迎点赞，收藏，转发，在看

我是田可可，中科大硕士，从事云计算AI工作，目前可可致力于成为1万名行业人士和AI技术的连接器，帮助大家找到AI，认知AI，用好AI，做AI时代的先进生产者！

欢迎加我vx，Q_aicloud_Q，备注“田可可AI连接器”，我建立了AI行业连接器群，帮助大家交流AI、认知AI、用好AI，无论你是教师，医生，律师，宝妈，学生，老板，还是房地产，互联网，新能源等行业从业者，如果你有兴趣，如果你想成为先进生产者，不甘于只做短视频AI时代的无脑消费者，希望通过AI挣钱，都可以加入，我们一起探索用AI生产优质内容和产品。

继续滑动看下一个

ChatGPT看图写话-妈妈再也不用担心小孩的学习

Original 田可可云上奇谭

云上奇谭

向上滑动看下一个

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

ChatGPT看图写话-妈妈再也不用担心小孩的学习

引言

测试

图片描述

物体识别

看图找片

专业图像分析

小学生看图写话

八卦分析

风险识别控制

总结

ChatGPT看图写话-妈妈再也不用担心小孩的学习

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

生成图片，分享到微信朋友圈

ChatGPT看图写话-妈妈再也不用担心小孩的学习

引言

测试

图片描述

物体识别

看图找片

专业图像分析

小学生看图写话

八卦分析

风险识别控制

总结

ChatGPT看图写话-妈妈再也不用担心小孩的学习

您可能也对以下帖子感兴趣